简单的复合物可以看作是图形的高维概括,这些图表一次在不同分辨率下的顶点之间明确编码多路有序关系。这个概念是检测数据的较高拓扑特征的核心,图形仅编码成对关系的图形仍然遗忘。尽管已尝试将图形神经网络(GNN)扩展到简单复杂设置,但这些方法并未固有地利用网络的基本拓扑结构。我们提出了一个图形卷积模型,用于学习由简单复合物的$ K $学术特征参数化的学习功能。通过频谱操纵其组合$ k $二维的霍奇laplacians,提议的模型可以实现基础简单复合物的学习拓扑特征,特别是,每个$ k $ simplex的距离与最接近的“最佳” $ k $ k $ - $ k $ - $ k $ - th $ k $ - ,有效地提供同源性本地化的替代方案。
translated by 谷歌翻译
我们提供了通过局部主成分分析估计切线空间和(光滑,紧凑)欧几里德子多元化的固定空间和固有尺寸所需的采样点数量的明确界限。我们的方法直接估计本地协方差矩阵,其同时允许估计切线空间和歧管的固有尺寸。关键争论涉及矩阵浓度不等式,是用于平坦化歧管的Wasserstein,以及关于Wassersein距离的协方差矩阵的Lipschitz关系。
translated by 谷歌翻译
We introduce M-VADER: a diffusion model (DM) for image generation where the output can be specified using arbitrary combinations of images and text. We show how M-VADER enables the generation of images specified using combinations of image and text, and combinations of multiple images. Previously, a number of successful DM image generation algorithms have been introduced that make it possible to specify the output image using a text prompt. Inspired by the success of those models, and led by the notion that language was already developed to describe the elements of visual contexts that humans find most important, we introduce an embedding model closely related to a vision-language model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion parameter multimodal decoder combining components from an autoregressive vision-language model MAGMA and biases finetuned for semantic search.
translated by 谷歌翻译
“感应头”是注意力头,它实现了一种简单的算法来完成令牌序列,例如[a] [b] ... [a] - > [b]。在这项工作中,我们提供了一个假设的初步和间接证据,即诱导头可能构成大型大型变压器模型中所有“文本学习”中大多数的机制(即减少在增加代币指数时损失的损失)。我们发现,诱导头在与秘密学习能力突然急剧上的急剧上升的位置完全相同,这是训练损失的颠簸。我们提出了六种互补的证据,认为诱导头可能是任何大小的变压器模型中一般性内部学习的机理来源。对于仅关注的小型模型,我们提供了有力的因果证据。对于具有MLP的较大模型,我们提供相关证据。
translated by 谷歌翻译
视频效果旨在通过给定的输入视频序列预测每个帧的α哑光。在过去的几年中,深度卷积神经网络(CNN)的最新解决方案一直由深度卷积神经网络(CNN)主导,这已成为学术界和工业的事实上的标准。但是,它们具有内置的局部归纳性偏见,并且由于基于CNN的架构而不会捕获图像的全局特征。在处理多个帧的特征图时,考虑到计算成本,他们还缺乏远程时间建模。在本文中,我们提出了VMFormer:一种基于变压器的端对端方法,用于视频垫子。它可以通过视频输入序列从可学习的查询中对每个帧的α哑光进行预测。具体而言,它利用自我发挥的层来建立特征序列的全局集成,并在连续帧上使用短距离的时间建模。我们进一步应用查询来通过在所有查询上使用远程时间建模的变压器解码器中的交叉注意来学习全局表示形式。在预测阶段,查询和相应的特征图均用于对Alpha Matte的最终预测。实验表明,VMFormer在合成基准测试上的表现优于先前基于CNN的视频效果方法。据我们所知,这是第一个基于完整视觉变压器建立的端到端视频底漆解决方案,并对可学习的查询进行预测。该项目在https://chrisjuniorli.github.io/project/project/vmformer/上开源
translated by 谷歌翻译
尽管近年来取得了显着的进展,但开发了几个局限性的单像超分辨率方法。具体而言,它们在具有某些降解(合成还是真实)的固定内容域中进行了培训。他们所学的先验容易过度适应培训配置。因此,目前尚不清楚对新型领域(例如无人机顶视图数据以及跨海)的概括。尽管如此,将无人机与正确的图像超分辨率配对具有巨大的价值。这将使无人机能够飞行更高的覆盖范围,同时保持高图像质量。为了回答这些问题,并为无人机图像超级分辨率铺平了道路,我们探索了该应用程序,特别关注单像案例。我们提出了一个新颖的无人机图像数据集,其场景在低分辨率和高分辨率下捕获,并在高度范围内捕获。我们的结果表明,现成的最先进的网络见证了这个不同领域的性能下降。我们还表明了简单的微调,并将高度意识纳入网络的体系结构,都可以改善重建性能。
translated by 谷歌翻译
随着摩尔的定律饱和和丹纳德的缩放率撞到了墙壁,传统的冯·诺伊曼系统无法为CNN等计算密集型算法提供GFLOPS/WATT。非常规计算方法的最新趋势使我们希望为此类算法设计高能节能的计算系统。神经形态计算是一种有希望的方法,其脑启发的电路,新兴技术的使用和低功率性质。研究人员使用各种新型技术,例如回忆录,硅光子学,鳍片和碳纳米管来演示神经形态计算机。但是,从神经形态的逻辑设计开始并进行建筑模拟的灵活CAD工具尚未得到证明,以支持这种有希望的范式的兴起。在这个项目中,我们旨在构建Neucasl,这是一个基于OpenSource Python的完整系统CAD框架,用于神经形态逻辑设计,电路模拟以及系统性能和可靠性估计。据我们所知,这是同类产品中的第一个。
translated by 谷歌翻译
极端分类(XC)试图用最大的标签集中标记标签的子集标记数据点。通过使用稀疏,手工制作的功能的XC方法优越,用密集,学习的数据来进行深度XC,以数据点和标签的形式吸引了很多关注。负挖掘技术已成为所有深XC方法的关键组成部分,使它们可以扩展到数百万个标签。然而,尽管最近进步,但培训具有大型编码器体系结构(例如变形金刚)的深入XC模型仍然具有挑战性。本文确定,流行负面挖掘技术的内存通常迫使小型批量尺寸保持小且缓慢的训练。作为回应,本文介绍了Ngame,这是一种轻巧的迷你批次创建技术,可证明可证明准确的内部负面样品。这使得与现有负面采样技术相比,具有更大的迷你批次培训,提供更快的收敛性和更高的精度。发现Ngame的准确性比各种基准数据集的最先进方法要高16%,以进行极端分类,并且在回答搜索引擎查询以响应用户网页时检索搜索引擎查询更准确3%显示个性化广告。在流行搜索引擎的实时A/B测试中,Ngame在点击率率中的收益最高可达23%。
translated by 谷歌翻译
研究深度学习的鲁棒性的一个主要挑战是定义了给定神经网络(NN)不变的``毫无意义''扰动集。关于鲁棒性的大多数工作隐含地将人作为参考模型来定义这种扰动。我们的工作通过使用另一个参考NN来定义给定的NN应该不变,从而使对任何NN的依赖概述对任何NN的依赖。这使得衡量鲁棒性等同于衡量两个NN共享不稳定的程度,我们提出了一种称为搅拌的措施。搅拌重新调整现有的表示相似性措施,使其适合衡量共享的不稳定。使用我们的度量,我们能够深入了解共享的不断增长,随着重量初始化,体系结构,损失功能和培训数据集的变化如何变化。我们的实现可在:\ url {https://github.com/nvedant07/stir}中获得。
translated by 谷歌翻译
多年来,为各种对象检测任务开发了数据集。海事域中的对象检测对于船舶的安全和导航至关重要。但是,在海事域中,仍然缺乏公开可用的大规模数据集。为了克服这一挑战,我们提出了Kolomverse,这是一个开放的大型图像数据集,可在Kriso(韩国研究所和海洋工程研究所)的海事域中进行物体检测。我们收集了从韩国21个领土水域捕获的5,845小时的视频数据。通过精心设计的数据质量评估过程,我们从视频数据中收集了大约2,151,470 4K分辨率的图像。该数据集考虑了各种环境:天气,时间,照明,遮挡,观点,背景,风速和可见性。 Kolomverse由五个类(船,浮标,渔网浮标,灯塔和风电场)组成,用于海上对象检测。该数据集的图像为3840美元$ \ times $ 2160像素,据我们所知,它是迄今为止最大的公开数据集,用于海上域中的对象检测。我们进行了对象检测实验,并在几个预训练的最先进的架构上评估了我们的数据集,以显示我们数据集的有效性和实用性。该数据集可在:\ url {https://github.com/maritimedataset/kolomverse}中获得。
translated by 谷歌翻译